尽管深度学习已经在文本和图像数据集上取得了巨大进展,但其对表格数据的优势尚不清楚。我们在大量数据集和高参数组合中为标准和新型深度学习方法以及基于树的模型(例如Xgboost和随机森林)提供了广泛的基准。我们从具有表格数据的清晰特征的各个域以及针对拟合模型和找到良好的超参数的基准测试方法来定义了一组45个数据集。结果表明,即使没有考虑其较高的速度,基于树的模型即使在中型数据($ \ sim $ 10K样本)上仍然是最先进的。为了理解这一差距,我们对基于树模型和神经网络(NNS)的不同感应偏见进行了实证研究。这导致了一系列挑战,这些挑战应指导研究人员旨在构建表格特定的NNS:1。对非信息功能保持鲁棒,2。保持数据的方向,并3.能够轻松学习不规则的功能。为了刺激对表格体系结构的研究,我们为基准的标准基准和原始数据贡献了:20 000计算小时的每个学习者的每个学习者搜索每个学习者。
translated by 谷歌翻译